普遍定义

热力学基于系统宏观状态的特性进行描述,而将微观信息封装在唯象描述的背后。但另一方面,我们已经对微观粒子建立起合适的动力学,自然希望从微观角度对系统的微观状态建立起描述,并从中得到宏观层面的热力学结论。

但是实际热力学系统涉及到的自由度数量之巨大,使我们完整求解动力学方程变为不可能,进而不可能用纯粹的动力学方法对宏观系统进行合适的描述。但有幸对于一种简单但普遍的情况——平衡态,我们实际上不需要完整的动力学信息,就能够对系统的微观状态做到足够满意的描述,但需要我们引入统计学的方法——由此建立的描述系统微观状态的理论就是统计力学。

统计力学中需要用到大量概率论和统计理论的方法,在此简要介绍。

在一个可能集合$\mathcal S = \{x_1,x_2,\cdots\}$中随机取值的对象称为随机变量。取值集合可能是离散的,如抛硬币、掷骰子的结果;有可能是连续的,如经典力学中粒子运动速度、粒子能量。取值集合$\mathcal S$的任一子集$\mathcal E \subset \mathcal S$对应一个事件,并被分配一个唯一确定的概率:$p(\mathcal E)$,其满足:

  • 非负性,即$p(\mathcal E)$必须是一个非负实数:$p(\mathcal E)\geq 0$;
  • 可加性,即若$\mathcal A$和$\mathcal B$是两个无关事件(无交集合:$\mathcal A \cap \mathcal B = \varnothing$),那么$p(\mathcal A \cup \mathcal B) = p(\mathcal A) + p(\mathcal B)$;
  • 归一化,即$p(\mathcal S) = 1$,意味着随机变量必定在$\mathcal S$中取值。

从统计力学的角度,我们关心如何为各种可能的事件$\mathcal E$分配其概率值$p(\mathcal E)$。下面是两种可能的方式:

  1. 客观角度:随机变量在一个特定取值的概率,是当实验次数趋于无穷时,其在大量取值结果中出现的相对频率;即若进行$N$次实验,其中事件$\mathcal A$作为结果出现的次数是$N_{\mathcal A}$,那么其概率为:

    当$N$取足够大的有限值时,比例$N_{\mathcal A}/N$可作为对概率$p(\mathcal E)$足够好的估计;试验次数$N$越多,估计越可靠。

  2. 主观角度:实际理论中,许多概率的估计是在对系统的准确信息了解不完全的情况下做出的,此时通常基于一些假设或常识,对特定事件的概率做出适当的估计,如极大似然估计、贝叶斯估计、无偏估计等。需要指出的是,对概率的估计不总是正确或足够近似的,应当随着测量或更多信息的获得,对估计的方法和结果进行检查修正。

单一随机变量

考虑最简单的情况,即单个随机变量,特别地是单个连续随机变量$X$,其在实数轴上取值:$\mathcal S = \{-\infty < X < +\infty\}$​。

  • 累积概率函数(CPF)$P(x)$:随机变量$X$取任何小于$x$的值的概率:

    函数$P(x)$必须是单调递增函数,且$P(-\infty) = 0$,$P(+\infty) = 1$。

  • 概率密度函数(PDF)$p(x)$:也称概率分布函数,是随机变量$X$取值在$x$的概率密度:

    显然,它和DPF的关系是

    并且作为概率密度,PDF在全实数轴上是非负函数,且

    尽管如此,函数$p(x)$的取值没有上界,可能在某些点是发散的,例如$\delta$函数型。

  • 随机变量的函数$F(X)$:它本身也是一个随机变量,有自己的概率分布函数$p_F(f)$。使得$F(x) = f$的可能存在多个$x_i$,那么两个概率分布函数$p(x)$和$p_F(f)$满足:

    或者等价地写为:

    其中雅可比行列式$|{\rm d}x/{\rm d}f|$表示变量的变换。

  • 期望值$E(X)$:随机变量$X$​的期望值定义为:

    随机变量的任意函数$F(X)$​作为随机变量,也有期望值为:

  • 矩$m_n(X)$:随机变量$X$的$n$阶矩,是其幂次函数$(X-c)^n$的期望值:

    特别地,若$c=0$,称为原点矩

    若$c = E(X)$,称为中心距

  • 特性函数(矩生成函数)$\widetilde p(k)$:是$F(X) = {\rm e}^{-{\rm i}kX}$的期望值:

    可见$\widetilde p(x)$其实就是$p(x)$的傅立叶变换;逆变换就得到PDF:

    特征函数重要之处在于它可以利用指数函数级数展开,得到依照矩的展开:

    更一般地:

    于是随机变量$X$的任意阶矩都可从$\widetilde p(x)$的导数得a来 ,它也被称为矩生成函数:

  • 累积量生成函数$\ln \widetilde p(x)$:是矩生成函数的对数,也将它按照$(-{\rm i}k)$的级数进行展开:

    其中展开系数$\langle X^n \rangle_c$定义为随机变量$X$的$n$阶累积量

  • 累积量$\langle X^n \rangle_c$:利用关系:

    可以得到累积量与矩之间的关系。前四阶累积量分别是:

    • 平均值:$\langle X \rangle_c = \langle X \rangle$;
    • 方差:$\langle X^2 \rangle_c = \langle X^2 \rangle - \langle X \rangle^2$;
    • 偏度:$\langle X^3 \rangle_c = \langle X^3 \rangle - 3\langle X^2 \rangle \langle X \rangle + 2\langle X \rangle^3$;
    • 曲度/峰度:$\langle X^4 \rangle_c = \langle X^4 \rangle - 4\langle X^3 \rangle \langle X \rangle - 3\langle X^2 \rangle^2 + 12\langle X^2 \rangle \langle X \rangle^2 - 6\langle X \rangle^4$

上述用矩来表示累积量的方式可能较为复杂,但是另一方面,用累积量来表示矩的形式则更加简单,注意到

利用$(-{\rm i}k)$同阶项的待定系数法,就得到

其中求和遍及的指标满足$\sum n p_n = m$,$p_n$表示将$m$进行划分,其中$n$的个数;一个特定的$\{p_n\}$表示划分的一种方式。上述结论或许比较抽象,但可以利用图形化的技巧来表示任意阶矩展开为累积量的方式:

将$n$阶累积量表示为$n$个点的集团,那么$m$阶矩就可以表示为将$m$个点划分为小集团的所有可能方式之和,例如:

image-20240320232431094

上面的图形表示的是如下关系:

从这种图形化方法可以发展出统计力学和统计场论中各种有用的图形计算。

一些重要的概率分布

高斯分布

高斯分布描述一个取连续实值的、具有特定平均值$\mu$和不确定度$\sigma$随机变量:

一般将随机变量分布的不确定度$\sigma$称为其标准差。其特性函数是

根据$\ln \widetilde p(k) = -{\rm i}k\mu - k^2\sigma^2/2$可得

可见高斯分布的标准差是方差的平方根;这允许对任意分布照此定义标准差。高斯分布完全由其前两阶累积量所决定,它的各阶矩是

高斯分布中高阶累积量的为零,因此它的所有前述图形表示中仅需要考虑单点集团和两点集团。

二项分布

考虑一个仅有两种可能结果$A$和$B$(非$A$)的实验,单次实验中取结果$A$的概率是$p_A$,取结果$B$的概率是$p_B = 1 - p_A$,且每次实验之间相互独立。二项分布描述的是取非负整数值的随机变量,表示在$N$次独立实验中得到结果$A$的次数是$n_A$的概率:

其中

是从$N$个对象中取出$n_A$个对象的可能方式,称为组合数。二项分布得名在于,它恰是二项展开式中的一项:

二项分布的特性函数是

这意味着对于满足二项分布的对象,$N$次实验的累积量就是单次实验累积量乘以$n$。对于$N=1$的单次实验情况,可能的$X$值只有0或1,此时$\langle X^\ell \rangle = p_A$对任何正整数$\ell$都成立。于是对于$N$次实验的情况,各阶累积量可以求出为:

可以看到,随着实验次数$N$增大,二项分布的平均值以$\sim N$增长,标准差(方差的平方根)以$\sim\sqrt N$增长,因此分布的相对不确定度以$\sim 1/\sqrt N$减小。

二项分布可以简单推广到多项分布的情况,即若单次实验中,多个结果$\{A,B,\dots,M\}$分别以概率$\{p_A,p_B,\dots,p_M\}$的概率出现,那么$N$次独立实验中各个结果出现次数为$\{x_A,x_B,\dots,x_M\}$的概率是:

泊松分布

泊松分布描述取非负整数值的随机变量,表示在一个确定的区间(一段时间$T$、一片区域$S$等)内,某小概率事件发生的次数。考虑一个以小概率发生的随机事件,设当${\rm d}t\to 0$时,该事件在${\rm d}t$时间内发生的概率是$p = \kappa{\rm d}t$,发生多次的可能性过低而不予考虑,不发生的概率是$q =1-\kappa{\rm d}t$,并且不同时刻是否发生相互独立。

我们在一定长的时间$T$内统计该事件发生的次数,这可以近似认为是将时间分为$N = T/{\rm d}t$份,并且在每段短时间内进行独立实验,近似构成二项分布;它的特性函数是

将其展开并进行傅立叶逆变换:

这就是泊松分布。上式表示,在一段时间内,小概率事件可能的发生次数显然是非负整数,发生$m$次的概率就是:

累积量生成函数:

累积量就是:

这表明任意阶累积量都具有相同的值;各阶矩分别是:

多随机变量

实际问题中很多情况存在多个随机变量构成一个$N$维随机向量$X_i = (X_1,X_2,\dots,X_N)$,其取值集合也是$N$维空间$\mathcal S^N$。

  • 联合PDF:$p({\bf x})$描述随机向量${\bf X}$处于取值空间$\mathcal S^N$中点${\bf x} = (x_1,x_2,\dots,x_N)$处的概率密度,即$p({\bf x}){\rm d}^N x$是处在点${\bf x}$附近体积元${\rm d}^N x = \prod_{i=1}^N {\rm d}x_i$内的概率。联合概率密度的归一化为$\int{\rm d}^N xp({\bf x}) = 1$​。

    若各个$X_i$相互独立,那么

  • 无条件PDF:描述的是随机变量集合$\{X_1,X_2,\dots,X_N\}$的某个子集中的若干随机变量,在与其他随机变量的取值无关时的行为。此时,简单地从联合PDF中将不关心的那部分随机变量积掉就得到无条件PDF:

  • 条件PDF:描述的是在其他随机变量取特定值时,部分随机变量的行为。此时,利用贝叶斯定理可以从联合PDF中得到条件PDF:

    若随机变量之间是独立的,那么条件概率与非条件概率相等。

  • 联合特性函数:

  • 联合矩、联合累积量:

    单变量的矩与累积量之间的关系(和图形化表示方法),对于联合矩与联合累积量也适用,例如下图:

    image-20240321203428875

    表示

    其中$\langle X_i * X_j \rangle_c$称为连通关联函数,若$X_i$和$X_j$是独立随机变量,则连通关联为零。

  • 联合高斯分布:是高斯分布在多变量的推广:

    其中${\bf C}$是正定可逆对称矩阵。其特性函数是:

    联合高斯分布的联合累积量可以从$\ln\widetilde p({\bf k})$中得到:

    更高阶的累积量均为零。

    特别地,在${\boldsymbol\mu} = {\bf 0}$时,所有的奇数阶矩均为零;而矩与累积量的关系又表明,任何偶数阶的矩,都可以表达为全部可能的两两连通关联乘积的和,例如:

    在场论中,这一结果称为Wick定理

随机变量的和与中心极限定理

考虑若干随机变量之和:

其中诸$X_i$的联合PDF是$p({\bf X})$,那么$Y$的PDF为:

特性函数:

于是

若各个$X_i$相互独立,那么上式中高阶累积量的交叉项会消失,于是$\langle Y^n \rangle_c = \sum_{i=1}^N \langle X_i^n \rangle_c$;进一步,若全部$N$个随机变量$X_i$独立同分布,那么$\langle Y^n \rangle_c = N \langle X_i^n \rangle_c$。

可见对于独立同分布随机变量之和$Y$,随着$N$增长,平均值$\langle Y \rangle_c$按照$\sim N$增长,但标准差按照$\sim\sqrt N$增长,于是相对涨落(描述分布的相对展宽)$\sqrt{\langle Y^2 \rangle_c} / \langle Y \rangle_c \sim 1/\sqrt{N}$。考虑重新定义随机变量$Z = (Y-N\langle X \rangle_c)/\sqrt N$,于是

得到在大$N$极限下,独立同分布变量之和服从的新分布是高斯分布。中心极限定理陈述了更为一般的版本,即不要求各个变量独立,而仅要求$\sum_{i_1,\dots,i_m}^N \langle X_{i_i}\cdots X_{i_m}\rangle_c \ll\mathcal O(M^{m/2})$(累积量有限)条件成立,即可得到上述高斯分布。

注意到前述讨论中隐含假设了各个独立变量的累积量都是有限的。但若随机变量取自一个非常宽的分布,则其累积量可能并不有限,此时大$N$极限下的随机变量之和满足的分布将是其他形式的长尾分布,例如列维分布

其他大数规律

统计力学处理的总是极大$N$粒子数的体系,因此关心大$N$极限(物理中称为热力学极限)下的统计规律十分必要,此时会出现许多不同于有限粒子数系统的现象。

物理量的类型

在热力学极限下,各种物理量通常会出现三种不同类型的对$N$​的依赖方式:

  • 强度量,它们与$N$的变化无关,$\sim\mathcal O(N^0)$。包括温度$T$,广义力$Y$(例如压强$P$,外磁场$B$​)等。
  • 广延量,它们与$N$的变化成正比,$\sim\mathcal O(N)$。包括内能$E$,熵$S$,广义位形$X$(包括体积$V$,磁化$M$)等。
  • 对$N$的变化指数依赖的量,$\sim\mathcal O(\exp(\phi N))$。这在枚举离散微观状态,或计算允许相空间体积时会遇到。

当然在一些特殊问题中,也存在其他对$N$依赖行为的物理量,例如幂次依赖等等。

指数型求和或积分

统计力学中,常常遇到对指数型变量$\exp(\phi N)$的求和或积分,例如在对配分函数的计算中。

  • 指数型的求和

    考虑如下求和

    其中每一项都是非负指数型变量:$0\leq s_i = \exp(\phi_i N)$,项数$\mathcal N$正比于$N$的某幂次:$\mathcal N \propto N^p$。

    设$\mathcal N$项中最大一项是$s_{\rm max}\sim = \exp(\phi_0 N)$,注意到由于$0\leq s_i \leq s_{\rm max}$,于是

    考虑构造一个强度量,定义为

    其满足约束条件

    当$N\to\infty$极限下,$(\ln \mathcal N)/N$趋于零,因此

    可见在热力学极限下,求和可以由最大的$s_{\rm max}$所代替。

  • 指数型的积分

    考虑如下积分

    也有与求和情况类似的结果。对于积分情况,首先找到使函数$\phi(x)$最大化的$x_{\rm max}$,并在该点将之展开(注意到极大值的条件为一阶导为零,二阶导为负):

    于是积分近似为

    一方面,$\phi(x)$展开式中的高阶项可视为该结果的微扰,表现为$1/N$的高阶幂次项。另一方面,若函数$\phi(x)$存在多个极大值点,例如记另一个极大值点为$x’_{\rm max}$,那么在积分中该点处的贡献相对于$x_{\rm max}$处的贡献具有$\exp(-N(\phi(x_{\rm max}) - \phi(x’_{\rm max})))$的指数压低。

    综上,在热力学极限下,对$\mathcal J$唯一贡献的就是$x_{\rm max}$处的函数值:

    这一结论称为鞍点近似

斯特林公式

考虑如下积分

两边对$\alpha$求$N$次导

取$\alpha = 1$,上式就是Gamma函数在整数值的特殊情况:

构造函数$\phi(x) = \ln x - x/N$,于是

可以利用鞍点近似,在其最大值点$x_{\rm max} = N$,得到

或者更常用的形式

信息,熵,估计

信息

考虑随机变量$X$及其概率分布$p(x)$。在信息论中,可以考察一个概率分布的信息量。以离散随机变量为例,设其取值集合$\mathcal S = \{s_i|i = 1,2,\dots,M\}$,取值$s_i$的概率是$p_i$,于是满足该分布的$N$个独立随机变量的一段特定取值的排列就是一条信息。

每个随机变量都有$M$种可能取值,于是总的可能排列方式数为$M^N$,其表观信息量定义为可能排列数的以2为底的对数

也就是说要用这么多二进制位,才能精准传递由这$N$​个随机变量所携带的信息。

但是概率分布$\{p_i\}$也对这些随机变量可能编码的信息作出限制;特别地,在大$N$极限下,我们认为在一段编码中,$s_i$出现的次数应当大致是$N_i = N p_i$。如果这一关系精准成立,那么这$N$个随机变量所可能编码的信息个数,就是对$\{N_i\}$分布的$\{s_i\}$的可能组合数,即

它远远小于$M^N$;它对应的信息量是

香农定理证明了,对于上述概率分布,当大$N$极限时,确保在$N$次试验中错误百分比趋于零的最小位数,就是$\log_2 g$。对于任何非均匀分布,它总是小于不知道任何概率信息时的$\log_2 M^N$。

形如$g$的组合数在统计力学中十分常见于对可能的$M$个对象的计数;其对应的信息量,表征了我们对于它们可能排列的未知程度,但在物理中我们常用自然对数:

称为混合熵。其在概率分布为$\delta$函数$p_i = \delta_{ij}$时取最小值$S_{\rm min} = 0$;在均匀分布$p_i = 1/M$时取最大值$\ln M$。因此$S$可以作为随分布的分散性/无偏好性的一种测度。

一对一的随机变量映射$Y_i = F(X_i)$,不会改变熵的大小:$S_Y = S_X$​;多对一的映射则会通过使概率分布更无偏好而降低熵。

上面引入的是离散分布的熵;对于连续分布,自然希望类似地定义:

但这一定义是存在问题的,它在一对一的映射下也会变化,即乘以映射的雅可比矩阵。这一问题实际上是由量子力学中的普朗克常数$\hbar$的引入所解决,将会在后面详细讨论。

估计

熵$S$也可用于量化对概率分布的主观估计。如果没有任何信息,那么最优的无偏估计就是均匀分布,这种估计的熵是最大的,来源于我们对变量可能的分布完全无知。换个角度来看,均匀分布实际上是在仅有$\sum_i p_i = 1$的条件下最大化熵的分布:

因此我们可以合理认为,若获取了一些关于概率分布的信息,那么最优的无偏估计就是在此条件之下最大化熵的分布。例如如果我们知道$\langle F(X) \rangle = f$,那么

将之最大化就得到此时的无偏估计,结果是: